Kyutai STT 一种专为实时应用优化的语音转文字模型
00 分钟
2025-7-4
2025-7-4
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

Kyutai STT

一种专为实时应用优化的语音转文字(Speech-to-Text)模型。
👉 你可以在 unmute.sh 上试用
👉 查看代码:GitHub
 
Kyutai STT 是一种流式语音转文字模型架构,在延迟和准确性之间取得了出色的平衡,非常适合交互式应用。它支持批处理(batching),因此只需一块 GPU 就能同时处理数百个对话。
 
我们发布了两个模型:
  • kyutai/stt-1b-en_fr:低延迟模型,支持英文和法文,内置语义语音活动检测(VAD)。
  • kyutai/stt-2.6b-en:更大的英文专用模型,追求极致准确性。
 

1.实时且准确

字错误率(WER)图表
notion image
字错误率越低越好。
 
Kyutai STT 是一种“流式”模型,意味着它会一边接收音频一边实时转录,而不是等到整段音频输入完成后再开始处理。因此非常适用于实时应用,比如 Unmute
它能输出格式规范、带有标点的转录结果,还支持逐词时间戳。
在准确率方面,它的表现与目前最先进的非流式模型相当,后者通常需要整段音频数据。

2.语义语音活动检测(Semantic VAD)

对于像 Unmute 这样需要语音对话的应用,我们需要判断用户是否已经说完话,以便系统可以开始回应。
常见的方法是使用一个单独的语音活动检测模型,判断用户是否正在说话,然后在检测到用户停止说话后等待一段固定时间。
但这种方法有缺陷——人们说话时经常会暂停,固定等待时间很难适配所有情况,容易误判。
 
Kyutai STT 的解决方案是:不仅预测文本,还预测用户是否已经说完。系统会根据说话内容和语调,智能调整等待时间。
你可以在上面的演示中体验这一功能,注意提示“End of speech detected”。
目前,语义 VAD 只在 Rust 版本的服务器中提供,其他实现尚未支持。

3.超低延迟

  • kyutai/stt-1b-en_fr 模型的延迟为 500 毫秒,即说出一个词后,大约 0.5 秒内就能转录出来。
  • kyutai/stt-2.6b-en 的延迟为 2.5 秒,换取更高的准确率。
在 Unmute 中,我们使用一种叫做 “flush trick” 的技术进一步降低响应延迟:
当语音活动检测器判断用户说完后,虽然还要等 500ms(模型的延迟),但我们会让 STT 服务器尽快处理已有音频。
服务器的处理速度约为 4 倍实时速率,因此只需 125ms(500ms ÷ 4)即可处理完现有音频。通过这种方式,我们“加速了时间”,只需等 125ms 就能确保转录完成。

4.高并发能力

Kyutai STT 非常适合生产环境:
在一块 H100 GPU 上,它可以同时处理 400 条实时音频流
notion image
这得益于我们独创的 延迟流建模架构(delayed streams modeling),让模型本身就能高效地批量处理数据,无需额外代码支持流式处理。

5.单通道语音转文字

相比之下,将 OpenAI 的 Whisper 模型变为流式(Whisper-Streaming)则需要单独的研究项目。这种方法是反复处理最后几秒音频,并拼接结果。
虽然技术上很强大,但 Whisper-Streaming 不支持批处理,因此吞吐量远低于 Kyutai STT。如果你希望延迟更低,它还需要更频繁地重新处理音频,进一步降低效率。

6.多种实现方式

根据你的需求,我们提供不同的实现版本,详细说明见 GitHub
  • PyTorch 版:适合研究和实验。如果你想在 Python 中调用模型,可选此版本。
  • Rust 版:适合生产环境部署。Unmute 就是使用这个版本。
    • 我们的 Rust 服务支持通过 websocket 进行流式访问。
    • 在 L40S GPU 上,可以以 3 倍实时速率服务 64 个并发连接。
  • MLX 版:适用于在 iPhone 和 Mac 上进行设备端推理。
    • MLX 是 Apple 的机器学习框架,支持 Apple Silicon 上的硬件加速。

7.延迟流建模(Delayed Streams Modeling)

Kyutai STT 的核心创新,是我们在 Kyutai 首创的一项技术,称为“延迟流建模”,最初在 Moshi 项目中提出。
notion image
传统的语音转文字方法,是把完整音频输入模型,然后逐步生成文本(如 Whisper 采用的编码器-解码器结构)。
notion image
而 Kyutai STT 则将音频与文本建模为“时间对齐”的两个流:音频流和文字流是并列的,而不是线性先后关系。我们会延迟文本流几个时间帧,让模型有“前瞻”能力。
notion image
训练时:模型学会同时建模音频和文字两个流。
推理时:我们实时输入音频,模型根据音频预测文本。
这种方式还有个好处是对称性:我们只要将延迟从文本流切换到音频流,再把文字作为输入固定,就可以变成一个文字转语音模型。我们只需在模型中加一点技巧,让它预测空白 token 来对齐时间轴。
notion image
我们稍后将开源文字转语音(TTS)模型,并发布论文介绍这两种模型的细节。

了解更多:


致谢

Kyutai STT、TTS 和 Unmute 项目由以下成员创建:
Alexandre Défossez、Edouard Grave、Eugene Kharitonov、Laurent Mazare、Gabriel de Marmiesse、Emmanuel Orsini、Patrick Perez、Václav Volhejn 和 Neil Zeghidour,以及 Kyutai 团队的其他支持者。

 
💡
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
 
notion image